Named Entity Recognition and Correction in OCRized Corpora (Détection et correction automatique d'entités nommées dans des corpus OCRisés) [in French]
نویسندگان
چکیده
Résumé. La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd’hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d’erreurs à l’aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue générale. C’est pourtant dans certaines entités nommées que résident les erreurs les plus nombreuses, surtout dans des données telles que des corpus de brevets ou des textes juridiques. Dans cet article, nous proposons une architecture d’identification et de correction par règles d’un large éventail d’entités nommées (non compris les noms propres). Nous montrons que notre architecture permet d’atteindre un bon rappel et une excellente précision en correction, ce qui permet de traiter des fautes difficiles à traiter par les approches statistiques usuelles.
منابع مشابه
Impact of the nature and size of the training set on performance in the automatic detection of named entities (Impact de la nature et de la taille des corpus d'apprentissage sur les performances dans la détection automatique des entités nommées) [in French]
We present a comparative study on the impact of the nature and size of the training corpus on performance in automatic named entities recognition. This evaluation is in the form of multiple modulations on three French corpus. Two corpora are from the catalog of the European Language Resources Association (ELRA) and the third is composed of documents extract from the OpenEdition.org platform. Mo...
متن کاملAssociation d'un détecteur de visages et d'un détecteur d'entités nommées pour l'annotation automatique d'images
In this paper, we present a method for the annotation of faces in a large real corpus. We use a face detector and a named entities detector together: pictures containing faces can be annotated by the most frequent named entities found in the text surrounding the pictures. Although this method is quite simple, it yields good results. This is a first step towards more intelligent image annotation...
متن کاملCadre d'évaluation de systèmes de reconnaissance d'entités nommées spatiales
RÉSUMÉ. La reconnaissance d’entités nommées est une tâche de l’activité d’extraction d’information dans des corpus textuels. Des systèmes de reconnaissance d’entités nommées spatiales sont très largement utilisés, mais souvent sans en connaître les forces et faiblesses. C’est pourquoi nous proposons le cadre d’évaluation SNERBM (Spatial Name Entity Recognition BenchMark) comme référentiel commu...
متن کاملExtraction automatique d'affixes pour la reconnaissance d'entités nommées chimiques
Résumé. Dans cet article nous détaillons une approche permettant de détecter des affixes et des termes déclencheurs à partir de dictionnaires de façon automatique en se basant sur l’algorithme de la plus longue sous-chaîne commune, dans le cadre de la reconnaissance d’entités nommées chimiques sur CHEMDNER. Nous verrons ensuite des méthodes de sélection et de tri afin de les intégrer au mieux d...
متن کاملAdaptation d'un système de reconnaissance d'entités nommées pour le français à l'anglais à moindre coût (Adapting a French Named Entity Recognition System to English with Minimal Costs) [in French]
RÉSUMÉ La portabilité entre les langues des systèmes de reconnaissance d’entités nommées est coûteuse en termes de temps et de connaissances linguistiques requises. L’adaptation des systèmes symboliques souffrent du coût de développement de nouveaux lexiques et de la mise à jour des règles contextuelles. D’un autre côté, l’adaptation des systèmes statistiques se heurtent au problème du coût de ...
متن کامل